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基于 时 序数 据 库 的 分 布 式 网 络 波动 监控 系统 


摘 要 : 介绍 大 规模 数据 中 心 应 用 系统 间 通 信 经 常 跨越 多 个 机 房 或 者 多 个 核心 网 络 区域 ， 网 络 通信 质量 波动 大 幅 增加 ， 采 用 
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相应 的 实时 监控 技术 架构 ， 建 立 在 全 网 网 络 波动 监控 基础 平台 ， 
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1. 业务 场景 及 需求 

随 着 数据 中 心 系 统 规模 的 不 断 扩 大 ， 应 用 系统 间 通 
信 经 常 跨越 多 个 机 房 或 者 多 个 核心 网 络 区 域 ， 网 络 通信 质 
量 波动 的 概率 大 幅 增加 ， 直 接 影 响应 用 系统 的 正常 运行 。 
因此 ， 全 网 网 络 波动 监控 就 成 为 基础 平台 监控 中 不 可 或 缺 
的 基础 环节 。 网 络 波动 监控 主要 是 对 可 用 性 、 可 靠 性 和 
用 户 体验 进行 监测 ， 有 具体 为 以 下 几 方 面 : (1) 选取 每 个 
网 络 区 域 的 随机 节点 作为 采集 点 ， 同 时 对 跨 机 房 和 跨 网 
络 区域 的 ICMP 探测 响应 往返 时 间 进 行 持续 监测 。 (2) 
选取 用 户 端 网 络 节点 作为 采集 点 ， 对 所 有 服务 域名 和 关键 
URL 的 响应 时 间 、 响 应 状态 和 响应 内 容 等 持续 监测 。 (3 ) 
能 够 对 历史 数据 进行 实时 查询 ， 能 够 对 一 定时 期 内 的 监测 
指标 进行 聚合 计算 , 通过 各 类 图 表 形式 展示 网 络 响应 。( 4 ) 
能 够 定义 告警 策略 ， 当 采集 指标 符合 告警 策略 时 ， 通 过 
Web Hook 、Email 等 方式 进行 告警 。 网 络 波动 监控 的 数据 
类 型 主要 是 时 间 序 列 数据 ， 因 此 ， 考 虑 用 时 序数 据 库 ， 配 
合 分 布 式 采集 工具 、 消 息 系统 以 及 监控 前 端 系统 来 实现 。 
2. 时 序数 据 库 的 当前 发 展 

与 普通 数据 不 同 ， 每 条 时 间 序 列 数据 都 带 有 一 个 时 
间 戳 ， 反 映 的 是 某 个 时 间 点 的 度量 情况 。 时 间 序 列 数据 
库 (Time Series Database ) 则 是 针对 时 间 惟 或 时 间 序 列 数 
据 而 优化 的 数据 库 ， 专 门 用 于 跟踪 、 监 控 、 聚 合 和 处 理 
随时 间 变 化 的 度量 或 者 事件 ， 这 里 的 度量 可 以 是 服务 天 
指标 、 应 用 性 能 监控 数据 、 网 络 性 能 数据 、 传 感 器 数据 、 
事件 、 点 击 、 市 场 交 易 以 及 其 他 各 类 数据 。 

时 间 序 列 数据 库 并 不 是 新 生 事物 ， 但 其 早期 主要 用 
于 交易 系统 ， 用 来 监测 股票 交易 的 波动 性 。 然 而 ， 过 去 
十 年 中 ， 随 着 PC 服务 器 逐步 替代 大 型 机 和 小 型 机 ， 互 联 
网 、 物 联网 和 大 数据 技术 飞速 发 展 , 各 类 时 间 序 列 数据 、 
指标 和 事件 随时 随地 、 无 时 无 刻 在 产生 ， 随 着 数据 源 的 
变化 而 衍生 的 对 数据 生命 周期 管理 、 长 时 间 跨 度 下 实时 
快速 查询 和 聚合 计算 、 根 据 历史 数据 对 未 来 趋势 进行 预 
判 等 新 的 业务 需求 , 要 求 底层 数据 基础 架构 也 随 之 变化 ， 
需要 更 适合 互联 网 的 分 布 式 时 间 序 列 数据 库 。 

在 时 间 序 列 数据 库 领 域 ， InfluxDB、RRDtool、 
Graphite 和 OpenTSDB 、Druid 、Prometheum 的 排名 比较 靠 
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前 ,使 用 也 更 为 广泛 。 如 下 图 所 示 。 


22 systems in ranking, November 2017 


Nov ep Nov DBMS Database Model Nov Oct Nov 
2017 2017 2016 2017 2017 2016 
a 1 1， InfluxDB 回 Time Series DBMS 9.34 +0.63 +3.74 
2. 2. 2. RRDtool Time Senies DBMS 3.19 +0.08 +0.72 
3. 3, 3, Graphite Time Series DBMS 2.86 + 
4， 个 5. 个 5 Kdb+ Multi-model 加 1.85 + 
5. YY4, $4, OpenTSDB Time Series DBMS 1.71 -0.15 +0.25 
6. 6. 6. Druld Time Series DBMS 0.98 -0.02 +0.35 
a 7, 7, Prometheus Time Series DBMS 0.81 + 
8. 8. 8. KairosDB Time Series DBMS 0.46 -0.02 +0.19 
9. 9, 9. eXxtremeDB Multi-model 回 0.30 .0.02 +0.12 
10 10. 10. Riak TS Time Series DBMS 0.21 -0.03 +0.08 
11, 省 12. 个 19. Hawkular Metrics Time Series DBMS 0.16 + 
12. 个 13. 个 16. Blueflood Time Series DBMS 0.16 +0.02 +0.14 
13, 业 11. 15. Axibase Time Senes DBMS 0.10 -0.09 40.08 
14. 14, 个 18， Machbase Time Series DBMS 0.06 -0.01 +0.0 
15， 涉 165. 个 17. TempolIQ Time Senes DEMS 0.06 +0.02 +0.05 
16. $15, $13, Warp 10 Time Series DBMS 0.05 -0.01 +0.01 
17. 17. 业 11. Heroic Time Series DBMS 0.02 +0.02 -0.07 
18. IRONdb Time Series DBMS 0.00 
18. $17. 业 14. Newts Time Series DBMS 0.00 +0.00 -0.03 
18， $17, SiriDB Time Series DBMS 0.00 +0.00 


18. 业 17. 19. SiteWhere 
18, 业 17. 业 12， Yanza 


时 序数 据 库 11 月 份 排名 情况 〈 摘 自 db-engines. com[1] ) 


Time Series DBMS 
Time Series DBMS 


0.00 +0.00 +0.00 
0.00 +0.00 -0.06 


3. 时 序数 据 库 的 几 个 关键 概念 
以 使 用 最 广泛 的 Influxdb 为 例 ， 有 以 下 几 个 关键 概 
念 : 

(1 ) field key/field value/field set， 度 量 指标 数据 ， 
field key 为 度量 指标 字段 ，filed value 为 对 应 的 值 ， 两 者 
构成 field set。Field key 没有 索引 ， 基 于 field 的 过 滤 查 询 
都 是 全 表 扫 描 。Field value 的 值 类 型 只 能 为 字符 串 、 浮 点 
数 、 整 型 数 或 者 布尔 类 型 。 每 条 度量 指标 数据 都 和 一 个 
时 间 戳 绑 定 。 

(2 ) tag key/tag value/tag set, 可 选 的 索引 标签 ， tag 
key 为 索引 标签 字段 ，tag value 为 对 应 的 值 ， 两 者 构成 tag 
set。 在 查询 语句 中 ， 可 以 跟 在 where 短语 后 面 。 

(3 ) measurement， 类 似 于 关系 型 数据 库 中 的 表 ， 存 
放 tags 、fields 以 及 对 应 的 时 间 戳 。 

(4 ) retention policies, 数据 存储 策略 ， 默 认为 永久 
保存 ， 可 以 为 数据 表 设 置 过 期 时 间 ，influxdb 会 定期 清理 。 

(5 ) database， 类 似 于 关系 型 数据 库 中 的 数据 库 ， 
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人 逻辑 概念 ， 包 含 用 户 权 限 、 存 储 策略 、 时 序数 据 等 。 

(6) series， 数 据 序列 ， 相 同 的 数据 表 、 存 储 策略 
和 tag set， 构 成 1 个 series。 一 般 情 况 下 ， 表 中 有 tag 标 
签 时 , 根据 不 同 tag 标 签 的 排列 组 合 会 形成 多 条 数据 序列 。 
这 是 时 序数 据 库 中 最 关键 的 概念 。 
4. 实时 监控 技术 架构 

由 于 采集 网 络 范围 广 、 节 点 多 、 采 集 时 间 间 隔 短 、 
数据 插入 并 发 高 ， 因 此 ， 网 络 波动 指标 数据 的 采集 处 理 
选用 分 布 式 架构 。 在 全 网 采集 点 上 部 署 采 集 工 具 ， 分 别 
以 JSON 标准 格式 上 传 到 消息 系统 ， 接 收 处 理 入 库 程 序 ， 
从 消息 系统 接收 消息 ， 人 处理 后 插入 时 间 序 列 数据 库 。 前 
端 监控 系统 从 时 间 序 列 数据 库 读 取 数 据 ， 并 在 前 台 进 行 
展示 ,依据 定 制 策略 进行 告警 。 如 下 图 所 示 。 


Peanees 号 
Pi rtBeat 2 Bersfo es Dk 
Bensen 

.MetricHeat 


网 络 波动 监控 系统 架构 


采集 工具 选用 HeartBeat， 属 于 Elastic Stack 中 的 轻 
量 型 数据 采集 器 Beats 工具 集中 的 一 种 。 它 采用 Go 语 
言 开 发 ， 并 发 性 能 较 高 ， 支 持 iemp/http/tcp 三 种 类 型 的 
心跳 监控 ， 动态 地 添加 和 删除 目标 ， 既 支持 直接 输出 到 
ElasticSearch 和 Logstash， 也 支持 输出 到 Kafka 和 Redis 
消息 队列 。 消息 系统 选用 Kafka, 属于 Apache 基金 会 项 目 ， 
被 定义 为 分 布 式 流 处 理 平 台 ， 通 常用 于 实时 流 数 据 的 管 
道 或 者 流 数据 处 理应 用 。 它 采用 Java 语言 开发 ， 并 发 性 
能 高 , 支持 发 布 /订阅 的 消息 系统 场景 以 及 日 志 存 储 场景 。 

时 序数 据 库 选用 InfluxDB， 是 InfluxData 所 开源 的 项 
目 。 在 db-engines.com 所 公布 的 时 序数 据 库 中 长 期 排名 
第 一 ， 是 目前 应 用 最 广泛 的 时 序数 据 库 。 它 支持 对 时 序 
数据 定期 存储 ， 可 以 根据 数据 量 和 时 间 定 时 清理 过 期 数 
据 ， 避 免 磁盘 空间 超标 ; 支持 对 时 序数 据 进 行 mean/min/ 
max/last/first/avg 等 各 种 快速 聚合 计算 。 

监控 告警 前 端 选 用 Grafana， 支 持 InfluxDB、 
FlasticSearch 、Graphite 、Prometheus 等 各 类 数据 源 ， 支 持 
图 表 、 表 格 、 仪 表盘 等 各 类 展示 方式 ， 通 过 自 定义 告警 
水 位 和 告警 信息 实现 告警 。 
5. 时 序数 据 存储 与 查询 

网 络 波动 以 ICMP 和 HTTP 响应 结果 指标 数据 为 主 ， 
分 别 存储 在 不 同 数 序数 据 库 中 ， 每 个 数据 库 中 根据 数据 
来 源 、 时 间 等 字段 适当 拆 表 ， 同 时 对 响应 状态 错误 的 结 
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果 数 据 复 制 一 份 入 库 到 错误 表 ， 方便 查 询 。 

由 于 是 对 网 络 波动 度量 指标 数据 进行 监测 ， 因 此 ， 
field 数据 主要 是 ICMP 和 HTTP 请 求 的 响应 时 长 数据 ， 将 
采集 器 名 称 、 监 测 目标 、 返 回 状态 等 作为 tag 数据 。 

ICMP 响应 的 指标 数据 仅 有 一 个 rtt 时 长 ，HTTP 响应 
的 指标 数据 较为 复杂 。 各 列 数据 的 含义 为 : time 为 时 间 
改 ，wreponse_status 表示 响应 状态 ，wup 表示 是 否 有 响应 ， 
wresolve_rtt 表示 DNS 解析 时 间 ，wtcp_connect 表示 tcp 连 
接 时 间 ，whttp_rtt 表示 http 啊 应 时 。 

Influxdb 的 查询 语法 与 SQL 类 似 ， 增 加 和 优化 了 对 
一 定时 间 范 围 内 的 指标 数据 进行 最 大 值 /最 小 值 /平均 数 
计算 。 以 网 络 区 域 间 ICMP 响应 序列 查询 为 例 ， 选 取 某 个 
区 域 节点 的 ICMP 响应 时 长 的 平均 值 进行 聚合 查询 ， 用 时 
间 间 隔 作 为 聚合 依据 。 以 下 为 查询 语句 。 


SELECT max("wduration") FROM "RF-platfapp-ping-HeartBeat" WHERE "wmonitor" =~ 
I ‘smontarget$/ AND "wrf_observer" =~ /^$monobservers/ AND stimeFilter GROUP BY 
time($moninterval) fill(previous) 


相 较 于 网 络 区域 间 ICMP 响应 监控 ,重点 网 站 的 
URL 监控 的 HTTP 响应 数据 的 指标 更 多 ， 包 括 TCP 连接 
时 间 、DNS 解析 时 间 、HTTP 响应 时 间 ，HTTP 响应 状态 。 
以 下 为 查询 语句 : 


SELECT mean("wduration") AS " 桨 应 时 间 ", mean("wresolve_rtt") AS "DNS 解析 上 时间" 
mean("wtcp_connect_rtt") AS "TCP 迁 答 时间" mean("whttp_rtt")AS "HTTP 桨 应 上 时间" 
FROM "autogen"."REWWW-HeartBeat" WHERE "wmonitor" =~ /^s$montargets/ AND 
stimeFilter GROUP BY time(10m) fill(previous) 


6. 总 结 与 展望 

本 文 从 跨 机 房 和 网 络 区 域 的 网 络 质量 波动 监控 实 
际 需求 出 发 ， 设 计 了 基于 时 序数 据 库 的 分 布 式 网 络 波 
动 监测 系统 。 通 过 消息 队列 系统 实现 指标 数据 的 管道 
传输 ， 使 得 分 布 部 署 在 不 同 机 房 和 网 络 区 域 的 采集 
点 和 数据 接收 处 理 模块 解 午 ， 有 效 地 扩大 了 监控 范 
和 容量 ; 通过 时 序数 据 库 来 存储 网 络 质量 指标 数据 ， 
通过 前 端 展示 组 件 实现 指标 数据 的 图 表 展 示 ， 有 效 和 
决 了 网 络 质量 和 波动 的 实时 监测 和 历史 数据 查询 的 可 
视 化 监控 需求 。 晶 
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